Multivariate和multivariable 属同义词,两者皆表示:包含多个变量,根据《韦氏大字典》的解释,这两个字唯一的差异在于multivariable属一般词汇,而multivariate更具统计意涵。
所谓的单变量是指,单一因变量y是多个自变量x的函数;多变量multivariate则是指统计学方程中有多个y存在,均是多个x的函数。因此,若某研究只讨论了若干x的相关性,而并没分析y,则multivariate这一词并不适用于该论文。
多变项回归应该是multivariate regression 还是 multivariable regression?针对这个问题,华乐丝团队进行了相关的调查研究。
依据Hidalgo和Goodman的研究结果:大多数回归模式的描述是根据因变量(outcome variable)的模式而定:线性回归(linear regression)是连续性的因变量、逻辑回归(logistic regression)具有二分式结果(dichotomous outcome),而生存分析(survival analysis)包含时间结果预测(time to event outcome)。就统计学观点而言,multivariate analysis指的是具有两个或以上的因变量的统计模式,而multivariable analysis指的是具有多个自变量或反应变量(response variable)的统计模式。
一个multivariable model 可以视为一项多变量出现在方程式右边的模式。这类的统计模式可以用来评估数个变量间的关系。一边评估它们的独立关系时,也可以调整潜在性的混杂因素(confounder)。
一项简单的线性回归模式包含一个连续结果和一个预测因子;而一个多元回归(multiple regression)或多变量线性回归(multivariable linear regression)模式则包含一个连续结果和多个预测因子。
线性回归的情况也相同。逻辑回归和比例风险回归模型(proportional hazards regression model)可属简单或多变量的模式,且这些模式结构都具有一个因变量和一个或以上的自变量或预测变量。
相较之下,multivariate指的多变量通常源自于纵向研究(longitudinal study);其中,同一个个体的测量(重复测量)于多个时间点上进行。或者,multivariate指的是套迭/镶嵌(clustered/nested)资料,其每一个集群包含着多个个体。
Hidalgo和Goodman的研究采用系统性方式来统计单词multivariate的使用广泛性。这两位学者使用PubMed图书库及关键词multivariate来检阅2010年12月~2011年11月间刊登在《American Journal of Public Health》的期刊论文。这两位学者发现其中有30篇论文的统计分析部分用了multivariate一词。
在这30篇论文里,有5篇使用了multivariate model:4篇的分析模式源自于纵向资料),1篇的分析模式来自镶嵌数据。至于剩下的25篇论文,皆使用multivariable analyses;其中,逻辑回归(30篇中的21 篇,占约70%)是最常被使用的模式,30篇中的另3篇使用了线性回归模式(占约10%)。有趣的是,30篇论文中有2 篇出现了multivariate和multivariable此二字交互使用的情况,反映了统计遣词缺乏一致性。
虽然有些人会认为multivariate和multivariable的互用性仅仅牵涉语意上含意,但我们编辑团队认为区分二者的差异是相当重要的。一般而言,研究中所使用的模式应该属simple或multivariable模式,以表示预测因子的数量和结果种类(如:连续、二分式、重复测量和时间结果预测),以及表示线性、逻辑、多变量或比例风险回归模式。
此研究指出了多变量需要更精确的应用和阐述。这相当重要,许多作者仍然持续使用multivariate来描述统计,不论multivariate是否关乎结果或解释变量。我们不只要避免读者搞混,也要让所有研究人员了解正确的使用方式。我们也将在以后的论文校稿中,更加谨慎的使用该两词。
Reference:
1. Hidalgo B, Goodman M. Multivariate or multivariable regression? Am J Public Health. 2013;103(1):39–40 [ PMC free article] [ PubMed]